ارائه یک روش جهت استخراج خودکار کلمات کلیدی از متون علمی و پیاده سازی یک نمونه الگو

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده آموزشهای الکترونیکی
نویسنده علی دهقانی محمدی
استاد راهنما رضا جاویدان مصطفی فخراحمد اقبال منصوری
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1392

چکیده

هدف از استخراج خودکار عبارات کلیدی، انتخاب مجموعه ای از کلمات موجود در متن است که میتوانند موضوع اصلی متن مورد نظر را بیان کنند. استخراج خودکار عبارات کلیدی می تواند به یک کاربر کمک کند تا در میان تعداد زیادی از اسناد متنی کاوش کند، در حالی که کمترین زمان ممکن را سپری می کند. این فعالیت همچنین برای موتورهای جستجو و در وب معنایی به عنوان تولید متادیتا برای صفحات متنی مورد استفاده می باشد. در دهه اخیر، فعالیت های زیادی در زمینه استخراج خودکار عبارات کلیدی صورت گرفته است. کارهای ارائه شده را می توان از جنبه های مختلفی با هم مقایسه کرد، در اینجا بمنظور تشریح هدف این تحقیق، کارها را به دو دسته تقسیم می کنیم. دسته اول روشهایی هستند که برای شناسایی عبارات کلیدی موجود در یک متن به مجموعه ای از اسناد مرتبط با سند مورد پردازش نیاز دارند تا بتوانند با اطلاعاتی که از کل مجموعه اسناد بدست می آورند، عبارات کلیدی متن مورد نظر را شناسایی کنند. این وابستگی به مجموعه اسناد و دامنه ای خاص، دارای دو ایراد می باشد: اول اینکه، دسترسی به مجموعه ای از اسناد مرتبط با سند مورد پردازش در همه جا مقدور نیست. دوم اینکه، از آنجا که تمام اسناد موجود در یک مجموعه باید پردازش شوند، زمان زیادی طول می کشد تا عبارات کلیدی یک متن شناسایی شوند. دسته دوم از سیستمهای ارائه شده سیستمهایی هستند که با استفاده از خود سند اقدام به شناسایی و استخراج عبارات کلیدی می کنند. این سیستمها و روشها را اصطلاحا مستقل از مجموعه اسناد و مستقل از دامنه می نامند. تعداد کارهای ارائه شده در دسته دوم به مراتب کمتر از دسته اول می باشد. روش ارائه شده در این رساله نیز جزء روشهای مستقل از مجموعه اسناد و دامنه میباشد.مشکلی که روشهای دسته دوم با آن روبرو هستند کمبود اطلاعات موجود می باشد. این روشها عمدتاً با روشهای آماری مثل فراوانی کلمات و تعداد همرخدادی کلمات با همدیگر و یا بازنمایی متن به صورت گراف سعی در شناسایی کلمات مهم موجود در متن دارند. به دلیل کمبود اطلاعات، عملکرد سیستمهایی که تنها با استفاده از سند تکی عبارات کلیدی را شناسایی می کنند پایین تر از سیستمهای مبتنی بر مجموعه اسناد می باشد. در این رساله برای جبران کمبود اطلاعات از هستان شناسی وردنت استفاده شده است و سیستم در حالی که روی تک سند بکارگرفته می شود، کارایی قابل قبولی دارد. وردنت یک پایگاه لغت می باشد که در آن رابطه های مختلفی بین اسامی مثل تعمیم به خوبی بازنمایی شده است. بکارگیری وردنت هیچ محدودیتی را برای سیستم ایجاد نمیکند و تنها زمان پردازش را نسبت به حالتی که فقط از داده های آماری استفاده می شود، افزایش می دهد و در مقابل دقت و کارایی سیستم را افزایش می دهد. در این رساله برای بدست آوردن اطلاعات بیشتر از متن، از تشابه بین اسامی استفاده شده است و بمنظور محاسبه میزان تشابه بین دو اسم فرمولی ارائه شده است که فرمولی اقتباسی از محاسبه فاصله در گراف می باشد. برای آموزش ماشین از یک ویژگی آماری و دو ویژگی مبتنی بر وردنت استفاده شده است.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

متن کامل

ارائه روشی جدید برای شاخص گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه بندی متون

در زبان فارسی کلمات دارای صورت های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح نامه که از نظامی ساختارمند برخوردار است می توان شبکه کلمات...

متن کامل

سنتزپژوهی عوامل کلیدی موفقیت یادگیری الکترونیکی: ارائه یک الگو

هدف پژوهش حاضر، بررسی و شناسایی جامع عوامل کلیدی موفقیت یادگیری الکترونیکی جهت ارائه یگ الگوی جامع برای موفقیت یادگیری الکترونیکی میباشد. رویکرد پژوهش کیفی و روش آن، سنتزپژوهی است. جامعه پژوهش، کلیه مقالاتی هستند (85 مقاله) که از سال 2007تا 2017در مورد عوامل کلیدی موفقیت یادگیری الکترونیکی در مجلات معتبر و با کلمات کلیدی مشخص، یافت شدهاند. نمونه پژوهش شامل 41 مقاله است که این تعداد براساس اشب...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده آموزشهای الکترونیکی

کلمات کلیدی

برچسب زنی نحوی

میزبانی شده توسط پلتفرم ابری doprax.com